iT邦幫忙

2023 iThome 鐵人賽

DAY 7
0
AI & Data

30天零基礎學習網路爬蟲系列 第 7

爬取-網頁標題

  • 分享至 

  • xImage
  •  

通常在HTML網頁裡會使用<hn>標籤來定義標題,n代表數字,有1~6種不同級數的標題大小,而<h1>是最重要的,字級也最大,反之<h6>為最小。

爬取HTML標題

使用THE NEWS LENS文章( https://www.thenewslens.com/features )
首先,我們在瀏覽器中開啟開發人員工具,按下F12鍵,進入之後點選Element標籤,再點選標籤列最前方的箭頭鈕,將滑鼠游標移動到標題文字上,可以看這些標題是套用<hn>的HTML標籤
https://ithelp.ithome.com.tw/upload/images/20230918/20161776G33FSkO50S.png

當滑鼠游標放在「特別報導」時,下面工具列就可以看到網頁的程式碼是使用<h1>的標籤
https://ithelp.ithome.com.tw/upload/images/20230918/20161776RJbNgu34G5.jpg

接下來我們進入Web Scraper裡新增專案,點選Web Scraper→Create Sitemap
https://ithelp.ithome.com.tw/upload/images/20230918/20161776i2g8Yj3cQR.jpg

輸入名稱網站連結
https://ithelp.ithome.com.tw/upload/images/20230918/2016177685WDjxchFm.png

專案創建完成,底下的「root」是網站的根節點,接著就可以新增CSS選擇器,按下Add new selector鈕
https://ithelp.ithome.com.tw/upload/images/20230918/20161776pTFV9L7awx.jpg

輸入選擇器名稱(Id),和選擇節點類型(Type),這裡選擇Text(擷取標籤的文字內容)
https://ithelp.ithome.com.tw/upload/images/20230918/201617765AaCqMaZhB.png

接著,按下Select鈕,在網頁中移動游標到要選擇的文字後,會顯示紅色的外框,同時下方的工具列會顯示取得的CSS選擇器h1,確認後就可以按下Done selecting鈕
https://ithelp.ithome.com.tw/upload/images/20230918/20161776hTshRoHqlW.jpg

補充說明

如果有好幾個相同的HTML標籤,例如這個網頁中的<h2>,按下Select鈕後,選擇第一個,再接著按第二個,剩下相同的類型就會一起被選擇起來
https://ithelp.ithome.com.tw/upload/images/20230918/20161776RTFybpgwvl.jpg

因為我們每一組的資料元素都相同,所以要勾取Multiple
https://ithelp.ithome.com.tw/upload/images/20230918/20161776W5lKrzRRhI.jpg

爬取成功的資料

https://ithelp.ithome.com.tw/upload/images/20230918/20161776VKJhgmvjEx.png


上一篇
環境安裝-Web Scraper
下一篇
爬取-網頁段落
系列文
30天零基礎學習網路爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言